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摘要 : [ 目的/ 意义] 研究 建立 长 期 保存 系统 起 源 管理 框架 ,通过 有 效 管理 起 源 信 息 ,确保 长 期 保存 系统 所 
存档 数据 的 真实 可 靠 可 用 。 [方法 “过程 ] 基 于 数字 对 象 保 存 周期 进行 起 源 事件 定义 ,基于 OAIS 保存 流程 进行 
起 源 管理 框架 设计 ,以 事件 为 核心 进行 起 源 管理 功能 模型 和 起 源 信息 模型 设计 。 [ 结果 /结论 ] 初步 完成 基于 事 
件 的 保存 系统 起 源 管理 框架 的 设计 , 既 遵 循 保存 领域 的 相关 标准 ,同时 兼顾 实践 需求 ,对 长 期 保存 系统 具有 很 


好 的 普 适 性 和 可 行 性 ,但 其 在 有 效 性 和 实用 性 方面 还 有 待 进一步 验证 。 
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数字 对 象 的 起 源 信息 , 即 provenance ,记录 了 数字 
对 各 的 变化 历史 。 通 过 起 源 信息 , 人 们 可 以 全 面 了 解 
数 守 对 象 产生 之 后 所 发 生 的 变化 以 及 变化 的 原因 、 时 
闻 = 地 点 ` 相 关 人 员 等 7W 信息 (what where .who .when、 
which why .how ) 。 

数字 资源 长 期 保存 系统 作为 一 类 特殊 的 数据 管理 
系统 ,通过 摄 入 保存 ,管理 等 一 系列 管理 行为 ,确保 数 
字 对 象 经 过 足够 长 时 间 后 还 能 够 被 目标 用 户 团体 所 使 
用 ”对 于 数据 的 真实 可 靠 可 用 ,其 面临 着 更 大 的 责任 和 
挑战 。 在 长 期 保存 系统 中 ,起 源 信息 能 够 发 挥 多 方面 
的 着 用。 一 方面 长 期 保存 系统 要 在 相当 长 的 时 间 内 管 
理科 保持 数字 对 象 的 可 用 性 , 另 一 方面 它 要 抵抗 技术 
变化 对 数字 对 象 及 保存 系统 所 带 来 的 影响 。 格 式 迁 
移 .媒体 迁移 .技术 更 新 是 长 期 保存 的 常用 策略 ,所 以 
无 论 是 对 象 本 身 发 生变 化 还 是 其 所 处 环境 发 生 改 变 ， 
都 可 以 利用 起 源 详 细 记 录 这 些 改变 ,并 维护 这 些 变化 
前 后 的 数字 对 象 的 关联 。 通 过 这 种 方法 ,保存 系统 能 
够 有 效 进行 版 本 和 衍生 物 管理 ,并 为 数字 对 象 的 真实 
性 和 系统 的 可 信赖 认证 提供 证 据 ,同时 还 能 为 权限 管 
理 和 责任 归属 提供 支持 。 因 此 ,起 源 对 于 保存 系统 有 
着 更 为 重要 的 意义 。 

本 文 作者 曾 在 《起 源 技术 在 长 期 保存 中 的 研究 与 
应 用 》" 一 文中 全 面 总 结 和 分 析 了 起 源 在 长 期 保存 中 
的 研究 情况 ,初步 提出 了 一 个 起 源 管理 框架 ,本 文 将 基 


于 该 文 ,概述 如 何 进一步 完善 长 期 保存 系统 起 源 管理 
框架 和 相关 功能 的 设计 。 


1 国内 外 起 源 研究 分 析 


国外 对 数据 起 源 技术 的 研究 较 早 ,兴起 于 20 世纪 
90 年 代 , 涉 及 计算 机 、 地 理 系统 .生物 、 金 融 等 多 个 领 
域 和 学 科 ,可 分 为 基础 理论 和 应 用 两 个 方面 。 
起 源 的 基础 研究 包括 起 源 的 定义 \ 组 织 模型 .描述 
词汇 \ 序 列 化 形式 等 。 模 型 是 起 源 研究 最 大 的 热点 之 
,目前 通用 模型 有 W3C PROV -DM .OPM Provenir 和 
CRM, 等 。 此 外 ,一 些 元 数据 方案 、 本 体 词 汇 等 也 提供 
了 表达 Provence 的 术语 ,如 DC 元 数据 、VolID 词汇 和 
Provence Vocabulary。 其 中 最 具有 代表 性 的 是 PROV - 
DM , 它 在 2013 年 4 月 被 W3C 发 布 为 起 源 标 准 。 该 模 
型 可 以 兼容 其 他 起 源 模 型 ,得 到 了 各 个 行业 的 一 致 认 
可 ,使 起 源 信息 在 系统 之 间 的 交互 传递, 尤其 是 在 
WEB 环境 中 大 规模 地 推广 和 使 用 成 为 可 能 ,推动 了 起 
源 标准 化 进程 。 
起 源 的 应 用 研究 包括 起 源 捕获 、 存 储 、 查 询 \ 可 视 

化 的 技术 、 工 具 、 系 统 和 框架 等 。 可 支持 起 源 管理 的 工 
具 或 系统 非常 多 ,例如 Taverna、VisTrails、REDUX 和 
VDS 等 ,它们 都 可 以 捕获 .存储 和 浏览 工作 流 环境 中 的 
起 源 ,Y.L. Simmhan 等 ”对 此 作 了 较为 全 面 的 综述 。 
起 源 框架 是 另 一 个 研究 重点 ,R. Bose 等 “提出 适应 于 
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科技 工作 流 起 源 管理 的 概念 框架 , 它 可 以 从 工作 流 系 
统 中 自动 捕获 起 源 信息 ,记录 为 元 数据 ,保存 到 相应 的 
数据 库 中 提供 查询 ;B. R. Barkstrom 等 ”设计 了 地 球 科 
学 数据 起 源 追 踪 的 计算 框架 ,用 于 追 中 一 条 地 球 科学 
数据 的 创建 .保管 历史 、 知 识 产 权 历 史 3 种 类 型 的 活 
动 , 并 将 其 呈现 为 有 向 无 环 图 ;DERI( Digital Enterprise 
Research Institute ) 发 布 了 通用 的 来 源 管理 框架 及 系统 
Prov4J'” ,使 用 语义 网 标准 和 工具 管理 起 源 ,帮助 用 户 
开发 起 源 感知 应 用 程序 ” 。 

近年 来 国内 也 开始 了 起 源 的 研究 ,主要 涉及 起 源 
技术 综述 *” ,起源 表达 起源 模型 分 析 等 。 其 中 模型 
的 研究 较 多 ,除了 模型 综述 和 述评 外 ” ,国内 学 者 党 
试 修改 完善 已 有 模型 或 者 提出 新 的 起 源 模型 ,如 针 
对 OPM( Open Provenance Model) 的 安全 性 改进 、 基 
于 DNA 双 螺 旋 结构 的 数据 起 源 模 型 ”等 。 但 国内 开 
展 起 源 管理 实践 的 相对 较 少 ,尤其 是 过 程 级 起 源 管理 ， 
以 及 起 源 在 特定 领域 的 研究 和 应 用 。 

在 长 期 保存 领域 ,OAIS 和 PREMIS 等 标准 给 出 了 
关于 起 源 的 概念 定义 和 解释 ,但 缺乏 相关 实践 的 内 容 ， 
如 记录 的 内 容 . 相 关 技 术 ,起 源 管 理 策略 等 。DAITSS 、 
CASPAR .APASEN 等 "项 目 已 经 开始 相关 探索 ,国内 
也 有 学 者 “ “开始 了 起 源 的 捕获 研究 。 总 体 来 说 , 保 
存 领域 对 起 源 还 缺乏 全 面 、 系 统 化 的 分 析 研 究 。 本 文 
从 保存 生命 周期 的 角度 对 起 源 的 内 容 捕获 存储 和 封 
装 进 行 全 面 的 分 析 , 提 出 一 个 综合 性 的 完整 起 源 管理 
框架 ,希望 为 长 期 保存 提供 有 益 的 参考 。 


2 长 期 保存 系统 的 起 源 管 理 框架 的 基 


本 设计 思 

从 起 源 在 已 有 长 期 保存 系统 的 应 用 中 发 现 , 不 同 
的 长 期 保存 系统 对 起 源 记录 的 方式 .内容 和 侧重 角度 
均 不 相同 ,包括 重要 操作 、 责 任 人 、 时 间 和 设备 等 ,同时 
OAIS 和 PREMIS 也 未 对 起 源 描述 作出 详细 规范 ,但 是 
PREMIS 框架 和 长 期 保存 实践 逐渐 形成 了 以 事件 为 核 
心 来 记录 起 源 的 方式 ,所 以 本 文选 择 以 事件 为 核心 来 
管理 起 源 ,其 定义 为 内 容 信 息 的 历史 ,展示 了 内 容 信 息 
从 产生 以 后 发 生 的 相关 变动 ” 。 

起 源 信息 的 管理 贯穿 数字 对 象 在 OAIS 系统 中 的 
整个 生命 周期 。 考 虑 诸多 因素 ,本 文 在 起 源 管 理 框 架 
的 设计 中 ,遵循 如 下 的 设计 原则 : 

(1) 基 于 OAIS。OAIS 是 长 期 保存 的 通用 标准 , 提 
供 了 长 期 保存 的 基本 流程 和 事件 ,所 以 它 是 本 文 研究 
框架 的 最 基本 的 出 发 点 。 
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(2) 基 于 数字 对 象 的 保存 周期 。 本 文 以 数字 对 象 
提交 到 保存 系统 为 起 点 ,对 其 进入 保存 系统 后 的 整个 
保存 周期 内 所 有 变化 来 实施 起 源 采 集 与 管理 。 数 字 对 
象 提 交 到 保存 系统 前 的 起 源 信 息 ,可 由 内 容 生产 者 在 
和 保存 方 协商 一 致 的 基础 上 以 规范 的 方式 提交 到 长 期 
保存 系统 ,这 一 点 和 OAIS 的 要 求 也 是 一 致 的 。 

(3 ) 以 事件 为 核心 来 记录 起 源 信 息 。 在 长 期 保存 
的 过 程 中 ,数字 对 象 会 因 各 种 管理 活动 产生 多 种 事件 
并 产生 起 源 信 息 , 可 以 说 事件 通常 都 伴随 着 起 源 信息 
的 产生 。 

(4) 交 互 性 。 信 息 模型 是 系统 软件 设计 中 重要 的 
内 容 , 为 增强 起 源 信息 在 不 同系 统 之 间 的 交互 性 ,起 源 
管理 应 采用 信息 模型 来 组 织 管理 数据 。 

(5) 通 用 性 。 本 框架 由 在 为 长 期 保存 中 组 织 和 管 


理 起 源 信息 提供 一 般 的 功能 流程 、 模 型 等 内 容 的 参考 ， 
与 具体 技术 实现 无 关 。 


为 了 明确 说 明 整 个 管理 框架 的 设计 原理 及 关键 内 
容 ,本文 首先 根据 保存 周期 管理 提出 了 起 源 事件 清单 ， 
指明 哪些 事件 会 产生 起 源 信息 、 应 该 在 哪些 流程 实施 
管理 。 进 而 利用 OAIS 保存 系统 的 功能 模型 示意 图 , 进 
一 步 明 确 起 源 管 理 模块 与 保存 系统 功能 框架 之 间 的 藤 
人 关系 ,并 在 起 源 信息 管理 的 功能 模型 部 分 ,明确 起 源 
管理 功能 如 何 融入 OAIHS 管理 流程 实施 有 效 管理 。 在 
最 后 部 分 则 通过 起 源 信息 模型 ,定义 起 源 信息 包含 基 
本 组 成 和 结构 ,以 便 进行 信息 组 织 和 保存 。 这 4 个 部 
分 基本 讲 明了 保存 系统 对 于 起 源 管理 的 what、when、 
where .how 几 个 问题 。 


3 面向 保存 周期 管理 的 起 源 事件 清单 


事件 是 对 象 发 生变 化 的 主要 驱动 ,通过 事件 可 以 
把 各 种 类 型 的 状态 变化 串联 起 来 。 随 着 事件 的 累积 ， 
发 生 在 对 象 上 的 事件 链 可 以 动态 地 呈现 保存 对 象 的 状 
态 改 变 。 因 此 本 文 的 起 源 事件 定义 为 涉及 或 影响 至 少 
一 个 对 象 或 代理 的 保存 系统 可 识别 的 动作 ,和 计算 机 
中 常 说 的 单 击 、 双 击 、 窗 体 加 载 等 事件 是 不 同 的 , 它 是 
长 期 保存 系统 定义 的 保存 系统 处 理 对 象 的 操作 或 操作 
集 , 如 压缩 文件 、 摄 和 人 信息 包 、 创 建 对 象 等 。 识 别 记录 
哪些 事件 作为 起 源 事件 是 本 文 所 构建 的 起 源 管理 框架 
的 核心 问题 。 

PREMIS ”作为 保存 领域 的 保存 元 数据 标准 ,其 定 
义 了 5 个 基本 实体 ,事件 是 其 中 之 一 ,因此 使 用 事件 记 
录 起源 便 于 使 用 长 期 保存 元 数据 进行 描述 。PREMIS 
中 定义 了 15 种 保存 事件 :creation deacession、decom- 
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pression .decryption deletion \ digital signature validation 、 
dissemination fixity check ingestion、 message digest cal- 
culation migration 、 normalization 、replication 、 validation 、 
virus check。 但 这 些 事件 不 是 专门 针对 起 源 设计 的 起 
源 事件 ,同时 不 同事 件 之 间 还 有 重奏 的 地 方 ,如 crea- 
tion 和 normalization ;部 分 事件 指向 不 明 ,在 事件 应 用 中 
可 能 会 产生 歧义 ,如 validation。 所 以 在 实际 应 用 中 , 需 
要 明确 定义 长 期 保存 系统 中 哪些 事件 应 该 被 记录 为 起 
源 事 件 。 

OAIS 认为 :起 源 是 内 容 信 息 的 历史 , 它 展示 了 内 
容 信 息 产 生 的 由 来 .从 产生 以 后 发 生 的 变化 以 及 自 创 
建 以 后 的 保管 责任 方 的 改变 。 这 个 定义 暗含 了 选择 起 
源 事件 的 两 个 重要 依据 , 即 “ 时 间 ” 和" 变化" 。“ 时 
间 ”, 即 数字 对 象 的 保存 周期 ,在 OAIS 中 整个 保存 周 
期 包含 了 6 个 保存 流程 , 即 摄 人 (ingest) .归档 存储 (ar- 
chival storage) 数据 管理 (data Management) .业务 管理 
(administration ) 保存 规划 (preservation planning) 和 访 
问 (access)。“ 变 化 ”, 即 判断 一 个 事件 是 否 为 起 源 事 
件 的 依据 。 

综 上 所 述 ,在 洲 选 起 源 事件 时 应 考虑 如 下 方面 :中 
导致 内 容 对 象 最 初 产生 ,这 是 一 个 由 无 到 有 的 过 程 。 
@ 导 致 内 容 对 象 本 身 发 生变 化 ,或 者 能 够 捕获 长 期 保 
存 过 程 中 , 国 国 发 生 的 变化 ,这 些 变化 涉及 内 容 .结构 、 
数量 、 格 式 \ 位 置 .元 数据 和 保管 责任 方 等 方面 。@ 导 
致 新 版 本 对 象 的 产生 ,虽然 数字 对 象 内 容 本 身 并 未 发 
生 任何 变化 ,这 是 长 期 保存 之 基本 要 义 , 但 是 产生 了 和 
该 数字 对 象 关系 密切 的 新 对 象 ,例如 副本 ,不同 格式 的 
新 版 本 ,对 于 对 象 的 复 用 都 很 有 益处 。 由 导致 数字 对 
象 的 版 权 和 管理 权 发 生变 化 。 名 导致 数字 对 象 的 消 
J 

根据 以 上 原则 ,从 OAIS 所 包括 的 流程 中 遂 选 出 如 
表 1 所 示 的 起 源 事件 。 


4 藤 入 OAIS 保存 流程 的 起 源 管理 框架 
从 起 源 事件 清单 可 以 看 出 ,起 源 事件 涉及 OAIS 的 
所 有 流程 和 功能 模块 ,起 源 信息 的 管理 需要 嵌入 到 保 
存 系统 的 完整 流程 中 , 见 图 1 。 
其 中 ,图 1 中 心 部 分 是 起 源 的 管理 模块 , 它 要 典 人 
OAIS 的 各 个 流程 中 ,动态 地 监测 各 个 流程 的 事件 ,并 
根据 起 源 管理 中 预先 配置 好 的 起 源 事件 清单 ,捕获 数 
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字 对 象 的 起 源 事 件 。 然 后 把 长 期 保存 捕获 的 事件 和 生 
产 者 担 符 的 事件 按照 相应 的 起 源 模型 组 织 成 规范 的 
起 . 源 ,存储 为 相应 的 格式 (封装 与 存储 ) ,并 由 保存 管 


表 1 长 期 保存 起 源 事件 清单 


事件 英文 名 称 涉及 流程 
捕获 capture 摄 入 
解密 decryption 摄 入 
逆 压 缩 decompression 摄 入 
压缩 compression 摄 人 
病毒 检查 virus check 摄 入 归档 存储 
数量 检查 number check 摄 入 .归档 存储 
内 容 检查 content check 摄 入 .归档 存储 
不 变性 检查 fixity check 摄 入 归档 存储 
备份 检查 backup check 归档 存储 
硬件 检测 hardware detection 摄 入 .归档 存储 
格式 检查 format check 摄 入 归档 存储 
目录 删除 deaccession 归档 存储 
生产 者 登记 producer register 报信 
摄 人 消息 计算 message digest calculation 撒 入 
规范 化 normalization 报信 
当前 化 contemporary 摄 入 .归档 存储 
元 数据 抽取 description 腿 入 
创建 creation 报信 
摄 人 ingestion 腿 入 
备份 replication 摄 入 .归档 存储 
媒体 迁移 media migration 归档 存储 
删除 delete 归档 存储 
数据 恢复 data recovery 归档 存储 
模式 更 新 schema update 数据 管理 
分 发 dissemination 访问 
数据 迁移 transfer 访问 
| 压缩 | 捕获 | 规范 化 | 病毒 检查 | 内 容 检查 | ..。 | 不 变性 检查 | 
地 压 缩 | 解密 | 当前 化 | 数量 检查 | 内 容 检查 | .,。 | 不 变性 检查 | 
人 摄 入 | 
数据 恢复 事件 捕获 」 
多 | 4 EN 组 | 保存 此 。 
规 | 和 从 | 在 < EE 天 | 莉 
划 || 备份 检查 | 储 保存 周期 ”| 起 源 应 用 | 理 
访问 
分 发 | 数据 迁移 


1 栎 入 OAIS 保存 流程 中 的 起 源 管理 框架 
理 模 块 对 组 织 模块 生成 的 起 源 进行 长 期 保存 和 管理 ， 
保证 起 源 的 完整 性 .可 理解 性 和 长 期 可 访问 性 ,同时 应 
日 模块 按 保 存 系统 要 求 为 用 户 或 长 期 保存 的 其 他 模块 
(如 真实 性 管理 ) 提供 起 源 的 使 用 。 


5 ”以 事件 为 核心 的 起 源 管理 功能 模型 

2 清晰 地 展示 了 起 源 管理 各 个 功能 模块 的 相互 
关系 及 数据 流向 。 该 模型 包含 了 4 个 基本 子 功能 模块 
即 捕获 组织. 保存 管理 和 应 用 ,其 中 捕获 、 组 织 和 保存 


be a 


ls 
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管理 是 功能 模型 的 重点 。 


保存 环境 用 户 | 


优 捕获 


应 。。 [用户 交 瑟 
理 加 事件 配置 一 一 事件 监控 | 应 ts 
区 


去 于 现 +t 在 询 处 理 
3 大 中 [ 辣 
| Lat 
拖 取 
| 起源 模型 中 一 二 W3C PROV 提供 起 源 
+ + 
| 存储 管理 
保 一 - 
存 | 
管 » 


原 | (副本 制作 ] | 格式 入 
始 | | AT 部 
理 | 版 [副本 检查 对 
本 | 过 格 式 迁移 服 AR A 
| 


ER 
版 本 管理 起 源 审计 数量 检 在 


图 2 以 事件 为 核心 的 起 源 管理 功能 模型 
s.1 捕获 模块 
事件 配置 功能 负责 预定 义 和 配 置 起 源 管理 需要 捕 


务 。 
5.4 应 用 模块 

应 用 模块 为 系统 的 其 他 模块 (如 审计 和 追踪) 使 用 
起 源 信息 提供 标准 的 接口 调用 。 查 询 处 理 功 能 直接 接 
收 用 户 的 起 源 请 求 ,然后 调用 相关 的 起 源 接口 ,返回 特 
定格 式 的 起 源 给 用 户 。 用 户 交 互 功 能 则 为 用 户 提供 可 
视 化 界面 ,如 网 页 。 起 源 查询 或 下 载 的 请 求 消息 由 用 
户 在 交互 界面 中 发 起 后 被 传递 给 查询 处 理 模块 ,将 底 
层 处 理 后 从 交互 界面 返回 用 户 请 求 的 特定 格式 起 源 。 


6 ”以 事件 为 核心 的 起 源 信 息 模型 


使 用 信息 模型 不 仅 可 对 所 管理 的 数据 进行 有 效 组 
组, 同时 也 有 利于 长 期 保存 ,管理 和 重用 。OAIS 中 数 


获 的 事件 类 型 。 这 个 功能 在 捕获 之 前 完成 ,由 长 期 保 
存 系统 的 管理 人 员 根 据 保存 系统 的 功能 所 包含 的 各 个 
操作 ,归纳 出 需要 记录 为 起 源 的 事件 ,对 其 进行 详细 的 
定义 ,并 把 起 源 事件 清单 配置 为 计算 机 可 读 的 格式 ,如 
数据 库 表 或 者 XML 文件 。 

事件 监控 功能 负责 动态 地 监测 保存 系统 所 发 生 的 
所 有 事件 , 当 某 个 事件 和 预定 义 起 源 事件 清单 中 事件 
相 匹 配 时 , 则 触发 组 织 模块 ,把 事件 信息 如 事件 内 容 、 
事件 时 间 操作 对 象 和 使 用 设备 等 内 容 传 递 给 组 织 模 
块 。 
5.2 ”组 织 模块 

组 织 模块 接收 到 事件 消息 后 将 其 添加 到 起 源 记录 
的 任务 队列 中 , 供 抽 取 功 能 使 用 。 通 过 这 种 异步 记录 
的 方式 来 组 织 起 源 , 既 能 减 小 对 系统 原 有 进度 的 影响 ， 
又 能 减少 服务 器 的 负担 。 起 源 记录 的 任务 队列 包括 两 
种 类 型 事件 :一 种 是 自动 捕获 发 生 在 保存 统 内 部 的 事 
件 , 男 一 种 是 由 被 保存 内 容 的 生产 者 提供 的 外 部 事件 。 

抽取 功能 按照 顺序 读 取 任务 队列 的 事件 信息 , 根 
据 系统 设 定 的 信息 模型 (如 XML schema) 对 事件 信息 
进行 规范 化 组 织 , 生 成 规范 化 起 源 。 
5.3 保存 管理 模块 

存储 管理 功能 把 从 组 织 模块 接收 到 的 起 源 按照 相 
关 方 式 进行 存储 ,并 维护 起 源 数字 对 象 之 间 的 关联 关 
系 。 版 本 管理 功能 实现 对 起 源 的 各 个 版 本 的 管理 。 主 
要 是 按照 保存 计划 和 政策 进行 副本 制作 或 者 支持 格式 
迁移 。 起 源 审 计 功能 负责 为 每 个 版 本 的 起 源 定 期 执行 
不 变性 检查 (fixity check ) .格式 检查 和 副本 检查 。 触 
发 该 功能 有 两 种 类 型 的 任务 :一 种 是 定期 检查 任务 ,一 
种 是 新 增加 起 源 、 备 份 起 源 和 改变 起 源 版 本 触发 的 任 
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字 对 象 包括 内 容 信息 和 表征 信息 两 部 分 ,因此 起 源 不 
但 要 记录 内 容 信息 的 变化 ,也 同时 需要 记录 表征 信息 
的 变化 。 起 源 信 息 中 应 包含 以 下 相关 内 容 : 

(1) 事 件 。 事件 的 驱动 使 得 数字 对 象 发 生变 化 。 
事件 的 细节 描述 是 起 源 信息 的 重点 内 容 , 除 了 包含 事 
件 标识 符 、 细 节 描 述 、 时 间 、 事 件 类 型 .处 理 设备 ,处 理 
结果 、 地 点 和 发 生 原 因 , 还 要 包含 事件 涉及 的 责任 人 和 
被 操作 的 对 象 基本 信息 。 

(2) 数 字 对 象 。 需 要 完整 记录 事件 涉及 到 的 数字 
对 象 。 通 过 在 事件 中 引用 数字 对 象 的 标识 符 将 二 者 关 
联 起 来 ,但 不 包含 数字 对 象 的 描述 元 数据 。 如 果 一 个 
事件 同时 关联 两 个 甚至 更 多 数字 对 象 , 就 意味 着 所 有 
对 象 都 拥有 该 起 源 信息 ,应 该 包含 所 有 的 数字 对 象 的 
标识 符 。 

(3) 代 理 内 容 。 狭义 的 代理 指 的 是 事件 的 操作 
人 ,此 处 的 代理 的 含义 更 广 , 包 括 组 织 \ 个 人 、 软 件 和 人 硬 
件 4 种 内 容 。 

(4) 数 字 对 象 之 间 的 关系 。 事 件 对 数字 对 象 的 操 
作 可 能 会 导致 新 版 本 对 象 产生 ,如 副本 或 不 同 格式 的 
版 本 。 虽 然 数 字 对 象 之 间 的 关系 可 能 不 被 直接 记录 在 
起 源 信息 中 ,但 是 通过 分 析 相 关 事 件 的 性 质 和 涉及 的 
输入 、 输 出 对 象 可 以 间接 得 出 数字 对 象 的 版 本 变化 。 
W7 语义 模型 "给 出 了 从 7 个 维度 来 记录 起 源 信 
息 的 思路 , 较 全 面 地 说 明了 起 源 信息 包含 的 内 容 , 对 于 
构建 起 源 模型 具有 重要 的 参考 作用 。 本 文 在 W7 语义 
模型 和 上 文 归 纳 的 事件 起 源 内 容 基 础 上 设计 如 图 3 所 
示 的 事件 起 源 信息 模型 ,此 模型 从 事件 的 角度 描述 了 
起 源 信 息 应 该 包含 的 内 容 元 素 , 并 从 7 个 维度 来 设计 
每 个 起 源 事件 包含 的 内 容 概念 。 

在 该 信息 模型 中 ,以 事件 为 中 心 把 记录 数字 对 象 


吴 振 新 , 李 文 苞 ,， 蒋 世 银 . 构建 以 事件 为 核心 的 长 期 保存 系统 起 源 管理 框架 [可 . 图 书 情报 工作 ,2016,60(6) :91 -96. 
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图 3 事件 起 源 信息 模型 
变化 的 各 种 信息 串联 起 来 ,涵盖 了 起 源 事件 的 基本 元 
素 : Object、 Agent、 EventID、 Date、 Reason、 Task 、Detail 、 
EventOutcome 、Category 、EventType 和 Location , 每 一 个 
元 素 都 能 对 应 表示 W7 模型 的 一 个 维度 ,如 表 2 所 示 。 
虽然 Agent 和 Object 是 事件 的 一 部 分 ,但 两 者 的 描述 
元 数据 方案 不 在 起 源 管理 框架 模型 范围 内 ,该 模型 只 
对 起 源 事件 应 该 包含 的 各 个 概念 加 以 描述 。 

表 2 事件 起 源 信息 模型 的 基本 元 素 


基本 元 素 解释 对 应 维度 
EventID 事件 的 唯一 标识 符 , 用 以 引用 该 事件 what 
Date 记录 事件 发 生 的 时 间 , 可 能 是 一 个 时 间 点 ,也 可 能 。 when 
是 一 个 时 间 跨 
Detail 事件 的 详细 内 容 的 文字 描述 ,例如 “成 功 执 行 对 what 
图 片 的 不 变性 检查 ” 
EventOutcome 事件 的 执行 结果 描述 what 
事件 类 型 ,如 病毒 检查 .不 变性 检查 ,推荐 使 用 受 
EventType A what 
经 词汇 
Category ”事件 分 类 ,如 病毒 检查 和 耕 变 必 验 证 均 属 于 验证 。 what 
类 事件 ,对 不 同事 件 进 和 方便 查询 
Task 驱动 事件 发 生 的 任务 技术 ,类 似 于 工作 流 的 定义 how 
Reason 驱动 事件 发 生 的 原因 描述 why 
Location 和 事件 相关 的 位 置信 息 where 
Agent 和 事件 相关 的 代理 ,包括 4 种 子 类 型 ,Person who,which 
(人 ) 、Organization (组 织 ) .Soft (软件 ) 和 Device 
(物理 设备 ) 
Object 事件 涉及 的 被 保存 对 象 what 


笔者 在 系统 实现 时 复 用 了 PREMIS OWL” 和 
W3C PROV-0” 来 实现 起 源 组 织 模型 ,并 利用 RDF 进 
行 了 起 源 封装 ;本 文 没有 涉及 起 源 的 存储 和 封装 策略 ， 
这 些 内 容 将 在 笔者 的 另 一 篇 论文 中 详细 介绍 。 


目前 该 框架 系统 原型 刚刚 完成 ,其 有 效 和 实用 性 
还 有 待 进 一 步 验 证 。 总 地 来 看 ,基于 事件 的 保存 系统 
起 源 管理 框架 的 设计 ,不 但 遵循 了 保存 领域 的 相关 标 
准 ,同时 也 参考 了 许多 国际 项 目 实践 " ,兼顾 了 理论 和 
实践 两 个 方面 ,对 长 期 保存 的 信息 系统 具有 很 好 的 普 
适 性 和 可 行 性 。 该 框架 基于 数字 对 象 的 保存 周期 , 提 
出 了 峙 入 到 OAIS 流程 中 与 相关 保存 事件 相 融 合 的 方 


法 ,保证 了 起 源 的 有 效 和 完整 。 而 以 事件 来 记录 起 源 
的 方式 可 以 有 效 地 把 分 散 的 元 数据 碎片 按照 时 间 组 织 
起 来 , 既 紧 抓 起 源 产 生 的 本 质 , 又 便于 起 源 信息 采集 管 
理 ,这 一 点 和 PREMIS 认为 起 源 以 事件 为 驱动 的 观点 
是 一 致 的 。 另 外 ,本 框架 的 起 源 信息 组 织 采 用 了 信息 
模型 的 设计 ,与 具体 的 实现 技术 无 关 , 具 有 高 度 的 抽象 
性 ,可 以 适合 大 多 数 长 期 保存 系统 。 

保存 领域 的 研究 人 员 已 经 充分 认识 到 起 源 对 长 期 
保存 的 重要 作用 ,不 断 探索 如 何 对 起 源 进行 有 效 管理 
和 使 用 。 希 望 本 文 所 做 的 研究 和 努力 ,能 够 为 相关 人 
员 在 长 期 保存 的 起 源 管理 理论 研究 和 实践 方面 提供 有 
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Abstract: | Purpose/significance | This paper studies constructing a provenance management framework for long- 
term preservation system, to ensure the authenticity, reliabilityand usability of data objects archived in the long -term pres- 
ervation system by effectively managing provenance information. [ Method/ process | Tt makes the definition of provenance 
event based on the preservation jlifestyle of digital objects ，designs a provenance management framework according to the 
preservation flow of OAIS, and accomplishes the design of the management function model and provenance information 
model based on the event-centric. [ Result/ conclusion | The provenance management framework for long -term preservation 
system, which not only follows the relevant standards of long -term preservation but also takes into account the needs of 
practice, has a universality and feasibility for long-term preservation system, but still has a space for verification of effec- 
tiveness and practicability. 
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